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天 组 多 样 性 的 产生 具有 重要 的 贡献 。 新 基因 起 源 常常 通过 外 显 排 而 形成 
的 蛋白 质 。 该 文 调查 了 在 黑 腹 果 蝇 中 的 14 个 新 起 源 的 嵌 合 基因 在 群体 中 的 多 
态 性 , 发 现 其 中 8 个 在 群体 中 的 核 昔 酸 多 态 性 会 引起 提前 终止 子 ， 而 其 他 6 个 在 群体 中 编码 框 都 完整 旦 其 中 4 个 
受到 负 选 择 。 研 究 结 果 表 明 ， 骨 合 新 基因 起 源 后 可 能 存在 两 种 命运 :积累 提前 终止 子 突变 而 假 基 因 化 ,或 者 表现 
出 一 定 功 能 而 受 自然 选择 固定 下 来 ,基因 表达 的 数据 显示 , 与 RNA 介 导 外 显 子 重 排 (逆转 座 ) 形 成 的 新 基因 不 一 样 ， 
这 些 由 DNA 水 平 外 显 子 重 排 产生 的 新 基因 没有 精 集 或 者 雄性 特异 性 表达 模式 , 而 是 表现 出 更 为 多 样 性 的 时 空 表 
达 模 式 , 这 提示 尽管 通过 DNA 水 平 外 显 子 重 排 产生 的 新 基因 可 能 正在 变 成 假 基因 或 者 非 蛋 白质 编码 的 RNA SEAL, 
但 它们 依然 可 能 具有 进化 出 广泛 的 生物 学 功能 的 潜力 。 


关键 词 : TER; KAPEA; ETEA, 表达 模式 
中 图 分 类 号 : Q969.462.2; Q344 文献 标志 码 : A 文章 编号 : 0254-5853-(2011)06-0585-11 























摘要 : 新 基因 的 起 源 和 进化 对 : 
拒 合 的 基因 结构 ， 以 产生 具有 新 功 角 
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Evolutionary fate and expression patterns of chimeric new 
genes in Drosophila melanogaster 


ZHAN Zu-Bing '”, ZHANG Yue ', ZHAO Ruo-Ping ', WANG Wen " 


(1. State Key Laboratory of Genetic Resources and Evolution, Kunming Institute of Zoology, the Chinese Academy of Sciences, Kunming 650223, 
China; 2. Graduate University of the Chinese Academy of Sciences, Beijing 100049, China) 


Abstract: Origin and evolution of new genes contribute a lot to genome diversity. New genes usually form chimeric 
gene structures through DNA-based exon shuffling and generate proteins with novel functions. We investigated 
polymorphism of 14 chimeric new genes in Drosophila melanogaster populations and found that eight have premature 
stop codons in some individuals while six are intact in the population, four of which are under negative selection, 
suggesting the two evolutionary fates of new chimeric genes after origination: accumulate premature stop codons and 
pseudolize, or acquire functions and get fixed by natural selection. Different from new genes originated through 
RNA-based duplication (retroposition) which are usually testis-specific or male-specific expressed, the expression 
patterns of these new genes through DNA-based exon shuffling are temporally and spatially diverse, implying that they 
may have the potential to evolve various biological functions despite that they may become pseudogenes or 
non-protein-coding RNA genes. 


Key words Drosophila melanogaster; Chimeric new genes; Exon shuffling; Expression pattern 














进化 生物 学 上 所 说 的 新 基因 (new genes), XK (exon shuffling), Wi#£/K(retroposition), ACH FE ASE 
为 年 轻 基因 (young genes), 是 指 一 个 物种 中 基因 组 Æ (lateral gene transfer)、 基 因 分 裂 与 融合 (gene 
上 新 近 起 源 的 基因 。 从 黑 腹 果 蝇 亚 群 (Drosophila fusion/fission)、 从 头 起 源 (de novo origination) (Long 
melanogaster subgroup) 中 第 一 个 新 基因 jingwei et al, 2003; Li et al, 2004; Zhou & Wane 2008). rik 
(Long & Langley, 1993) 的 发 现 至 今 ， 新 基因 起 源 的 因 起 源 后 在 进化 上 往往 会 有 3 种 命运 : 亚 功能 化 
分 子 机 制 在 近 二 十 年 内 得 到 了 广泛 的 研究 。 这 些 分 。 “(subfunctionalization)、 新 功能 化 (neofunctionalization) 
子 机 制 包 括 基因 重复 (gene duplication)、 外 显 子 重 排 和 无 功能 化 (nonfunctionallization) (Force et al, 1999; 
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Lynch & Conery, 2000)。 亚 功能 化 和 新 功能 化 的 新 
基因 会 在 基因 组 上 被 保留 下 来 ， 而 无 功能 化 的 新 基 
因 往 往 会 被 假 基因 化 而 逐渐 消失 。 新 基因 假 基因 化 
有 两 种 途径 : (1) 积 累 有 害 突变 而 破坏 读 码 框 (ORFs， 
open reading frames)， 如 插入 /缺失 突变 (indel， 
insertion/ deletion), KIRE; (2) 失 去 转录 功能 

不 表达 。 以 前 的 案例 研究 发 现 ， 新 基因 起 源 常常 形 
成 蔡 合 的 基因 结构 ,如 果 蝇 中 的 jingwei. sphinx, 

Adh—Twain (Long & Langley, 1993; Wang et al, 2002; 
Jones & Begun, 2005), 以 及 人 中 的 PIPSKIA, 

PMCHL1, PMCHL2 (Courseaux & Nahon, 2001; 
Babushok et al, 2007)。 在 黑 腹 果 晶 中 , 29 30% 新 基 
因 形 成 嵌 合 的 结构 ， 而 嵌 合 的 序列 可 来 源 于 其 它 基 































































































因 、 转 座 子 、 简 单 重复 序列 或 者 基因 间 的 非 编码 区 
(Zhou et al, 2008)。 
拒 合 新 基因 可 以 通过 RNA 介 导 外 显 子 重 排 ( 逆 























转 座 ) 和 DNA 水 平 的 外 显 子 重 排 形 成 。 前 者 通过 将 
一 个 基因 的 mRNA 反 转 录 成 cDNA 后 插入 到 基因 
组 中 ， 并 招募 其 他 基因 的 外 显 子 ， 从 而 形成 具有 
惯 和 结构 的 新 基因 ， 如 此 前 报道 的 jingwei (Long & 
Langley, 1993; Long et al, 1999; Wang et al, 2000)( 图 
1A). SOB SSP Fe ETE I a BE IE REL 
物 、 小 鼠 和 人 等 不 同 物种 中 得 到 了 较为 广泛 而 系统 
的 研究 (Betrin et al, 2002; Emerson et al, 2004; Wang 
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et al, 2006; Bai et al, 2007)。 其 中 有 不 少 关于 逆转 座 
形成 的 山 合 基因 的 经 典 案例 ， 如 果 蝇 中 的 jinewei、 
sphinx. Adh—Twain (Long & Langley, 1993; Wang et 
al, 2002; Jones & Begun, 2005), 哺乳 动物 中 的 
PIPSKIA—PSMD4, TRIM5—CypA. RBMXL1, Utp14c 
(Sayah et al, 2004; Marques et al, 2005; Rohozinski et 
al, 2006; Babushok et al, 2007; Brennan et al, 2008; 
Virgen et al, 2008; Wilson et al, 2008). DNA 水 平 的 
外 显 子 重 排 则 是 通过 DNA 水 平 的 重复 事件 ， 如 基 
因 重 复 (gene duplication)、 部 分 基因 重复 (partial gene 
duplication), 片段 重复 (segment duplicatiom) 等 ， 将 两 
个 或 者 多 个 基因 的 外 显 子 融合 到 一 起 ， 或 者 基因 内 
部 的 外 显 子 产生 重复 而 形成 嵌 合 的 基因 结构 (Long 
et al, 2003; Li et al, 2004; Zhou & Wang, 2008)， 如 
1B。 通 常 通过 内 含 子 介 导 的 重组 或 者 异常 重组 
(illegitimate recombination)， 将 这 两 个 或 者 多 个 部 
分 融合 到 一 起 形成 新 基因 (Gilbert, 1987; van Rijk et 
al, 1999)。 最 近 在 黑 腹 果 晶 亚 群 中 的 研究 显示 ， 
腹 果 晶 CDrosopjiia melanogaster) 中 共有 14 个 在 
DNA 水 平 外 显 子 重 排 产 生 的 符合 基因 (Rogers et al, 
2009), 其 中 8 个 是 D. melanogaster 特有 的 ， 即 起 源 
于 540 万 年 前 ( 表 ID)。 骸 合 基因 以 约 11.4 个 基因 / 百 
万 年 的 速度 产生 ， 随 后 以 相 接近 的 速度 消亡 ,其 中 
WA 1.4% 在 基因 组 上 被 固定 下 来 。 
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CG18853-—RA 
重复 区 域 重复 区 域 
Duplicated region Duplicated region 
图 1 通过 外 显 子 重 排 产 生 骨 合 基因 的 两 种 机 制 
Fig. 1 Two molecular mechanisms of chimeric gene formation by exon shuffling 
A: RNA 介 导 的 外 显 子 重 排 (逆转 座 )， 一 个 基因 (44h) 通 过 逆转 录 后 插入 到 男儿 















































一 个 基因 Oarde) 内 部 ,两 个 基因 的 外 显 子 一 起 转录 产生 嵌 合 的 新 基因 





(jingwei); B: DNA 水 平 外 显 子 重 排 : 基因 组 上 通过 重复 事件 而 将 两 个 基因 (CG12822 和 CG717205) 的 一 部 分 拉 到 一 起 形成 嵌 合 的 新 基因 (CG718853)。 基 





因 的 重复 区 域 和 逆转 座 区 域 如 图 中 所 示 。 





A: RNA-based exon shuffling (retroposition), in which the reverse transcribed copy of one gene (Adh) was inserted into another gene (vande), and the exons of 


these two genes were transcribed together and formed a young chimeric gene (jingwei); B: DNA-based exon shuffling, in which the parts of two parental genes 





(CG12822and CG11205) were dup 


were illustrated in the figure. 


icated and transcribed together and formed a young chimeric gene (CG/8853). Duplicated regions and retroposed regions 
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表 1 ， 詹 合 新 基因 起 源 的 年 代 和 所 在 的 物种 


Tab.1 The ages and species of the chimeric new genes 




















新 基因 祖先 基因 A ° 祖先 基因 B? 年 龄 " 物种 
New gene Par gene A * Par gene B ° Age (Myr)” Species © 
CG31904 CG13796 CG7216 
CG18853 CG12822 CG11205 
CG32318 CG9191 CG9187 
CG31864 CG12264 CG5202 

<5.4 Dmel 

CG12592 CG18545 CG12819 
CG31687 CG2508 CG31688 

CR18217 CG17286 CG4098 
CG31668 CG33124 CG8451 

CG6653 CG31002 CG17200 ou Dmel, Dsim, Dsec, Dyak, 
CG17196 CG17197 CG17195 ` f Dere 
CG30457 CG10953 CG13705 12.8 一 44.2 Drhel, Dsim, Dsec; Dyak; 

Dere, Dana 

CG11961 CG9416 CG30049 

CG3978 CG9656 CG10278 44.2~54.9 Dmel, Dsim, Dsec, Dyak, 

Dere, Dana, Dspe 

CG6844 CG5610 CG11348 


“Par gene A: 祖先 基因 A; Par gene B: 祖先 基因 B; "年 龄 : 嵌 合 基因 起 源 至 今 的 年 龄 ， 
D. sechellia; Dyak: 





Drosophila melanogaster; Dsim: D. simulans; Dsec: 





© 物种 名 称 简写 Dmel: 


Dana: 





Myr: 百 万 年 ; 
D. yakuba; Dere: 














a 





D. erect; D. ananassae; 


Dspe: D. pseudoobscura)。 这 些 数 据 来 源 于 Rogers et al (2009) 的 报道 。 


“Par gene A denotes parental gene A, while Par gene B denotes parental gene B; ” Age denote the ages of these chimeric new genes. Myr 


denotes million years. ° The abbreviation of species names (Dmel: Drosophila melanogaster, Dsim: D. simulans, Dsec: D. sechellia, Dyak: D. 


yakuba, Dere: D. erecta, Dana: D. ananassae, Dspe: D. pseudoobscura). This data was derived from previous report by Rogers et al (2009). 











HH Hd HE JAE FIZ PSC FS RR aE DAL Pas a AS TL TE VE: ak 
者 精 梨 特异 性 的 表达 模式 , 这 可 能 在 雄性 生殖 系统 
的 进化 中 扮演 着 重要 的 角色 (Betrin et al，2002; 
Emerson et al, 2004)。 由 外 显 子 重 排 形成 的 仍 合 基因 ， 
具有 怎样 的 表达 格局 ， 还 不 清楚 。 

我 们 分 析 了 这 14 个 由 外 显 子 重 排 而 产生 的 扰 
新 基因 (Rogers et al, 2009)7E D. melanogaster 群体 
多 态 性 的 分 布 , MIL S ATED EARN 
换 对 其 编码 区 的 影响 而 初步 判断 其 是 否 有 功能 ， 
如 编码 区 的 核 昔 酸 替换 是 否 会 引起 提前 终止 子 
(premature stop codons)， 它 们 是 和 否 显著 地 正 选择 
(positive selection) 或 者 负 选 择 (negative selection). 1X 
些 分 析 有 助 于 更 好 地 了 解 这 些 蔡 合 新 基因 起 源 后 
在 进化 上 的 命运 ， 即 是 它们 是 以 假 基因 (pseudogene) 
的 形式 退出 进化 舞台 ,还 是 继续 进化 出 新 的 功能 。 
通过 分 析 其 表达 模式 ， 我 们 观察 到 这 些 舱 合 基因 中 
大 部 分 与 已 经 报道 的 案例 不 同 , 它们 并 不 像 逆 转 座 
新 基因 那样 多 呈现 雄性 或 者 精 巢 特异 性 的 表达 ， 而 
是 呈现 更 为 多 样 性 的 表达 模式 。 


1 材料 与 方法 


1.1 研究 材料 
本 文 研究 的 14 个 符合 新 基 
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来 源 于 此 前 的 报 
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道 (Rogers et al, 2009), 这 些 基 因 起 源 的 年 代 和 所 在 
的 物种 以 及 其 祖先 基因 见 表 1。 这 些 新 基因 起 源 于 
不 同 的 年 代 , 其 中 8 个 是 D. melanogaster 特有 的 (年 
龄 小 于 540 万 年 )。 

我 们 从 Ensembl Genome Browser (http://www. 
ensembl.org/) FRANX 14 个 新 基因 以 及 其 祖先 基因 
的 蛋白 质 编码 序列 、 恒 白质 的 氨基 酸 序列 以 及 其 对 
应 的 序列 号 码 ， 其 对 应 的 基因 组 版 本 为 Ensembl 
Genes 61、BDGP5.25。 同 时 , 我 们 还 从 该 网 站 下 载 
到 了 D. melanogaster 的 全 部 多 态 性 数据 这些 多 态 
性 数据 来 源 于 果 晶 群体 基因 组 学 项 目 网 站 DPGP 
(Drosophila Population Genomics Project: 
http://www.dpgp.org/), Ensembl 网 站 已 经 将 相应 的 
Fea LEXY 21] D. melanogaster 测 序 参 考 基 因 组 中 基因 
区 域 (包括 蛋白 质 编码 区 域 (protein-coding regions), 
非 翻译 的 转录 区 域 (UTRs, untranslational regions). 
内 含 子 区 域 (intronic regions)、 以 及 基因 间 区 域 ), 其 
对 应 的 版 本 为 Ensembl Variation 61。 这 些 多 态 性 数 
据 分 别 来 源 于 50 个 D. melanogaster 品系 ， 即 
MW11-1 1、MW27-3 1、MW28-1 1, MW28-2-3_ 1, 
MW38-1_ 1, MW38-2_ 1, MW46-1_ 1. MW56-2-3_ 1、 
MW6-1 1、 MW6-2 1、 MW6-3_1. MW63-1 1, 
MW63-2-3 2、MW9-1] 1、MW9-2 1、RAL-301 1、 
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RAL-303 1、 RAL-304 1、RAL-306 1、RAL-307 2、 
RAL-313 1, RAL-315_ 1、RAL-324 1, RAL-335 2、 
RAL-357 1、 RAL-358 1, RAL-360 1、 RAL-362 2, 
RAL-365_ 1, RAL-375_ 1, RAL-379 1、RAL-380 2、 
RAL-391_2, RAL-399_1, RAL-427_1, RAL-437_1, 
RAL-486_1,RAL-514_1,RAL-517_1, RAL-555_1, 
RAL-639_1, RAL-705 1、 RAL-707、 RAL-714 1, 
RAL-730 1、 RAL-732 1、 RAL-765_ 1, RAL-774 1、 
RAL-786_1,RAL-799_1,RAL-820_1 和 RAL-852 1, 
其 中 MW 指 果 昌 来源 于 非洲 东南 部 马 拉 维 共和 国 
(Malawi), RAL 指 果 晶 来 源 于 美国 北 卡罗来纳 州 首 
府 罗 莉 (Raleigh,NC)。 
1.2 ”中 性 检验 与 群体 遗传 学 分 析 

为 检测 这 些 授 合 基 因 是 否 具 有 功能 ， 我们 使 用 
多 种 遗传 检验 来 判断 这 些 新 基因 是 否 受 到 显著 的 
正 选择 或 者 负 选 择 。 我 们 将 从 Ensembl Variation 61 
上 下 载 的 多 态 性 数据 还 原 到 不 同 品系 中 的 序列 上 ， 
并 抽 提 出 其 和 蛋白质 编码 序列 用 以 进一步 分 析 。 这 些 
多 态 性 数据 主要 分 为 3 类 : 同 义 核 背 酸 替 换 位 点 
(synonymous substitution sites: SS). ft XIZ ET HRA 
位 点 (non-synonymous substitution sites, NSS) 和 提前 
终止 子 突 变 (synonymous substitution sites, STOP). 
首先 ,我 们 将 含有 提前 终止 子 突变 的 基因 分 离 出 来 ， 
这 些 基 因 很 可 能 正在 假 基 因 化 (pseudogenization)， 
因此 可 能 没有 功能 ， 其 次 , 针对 D. melanogaster 特 
有 的 能 合 基因 ,由 于 这 类 基因 太 年 轻 且 缺乏 直系 同 
源 基 因 ， 其 参考 序列 与 祖先 基因 之 间 的 替换 数目 太 
少 ， 既 无 法 在 旁 系 同 源 基 因 进 行 检 验 ， 也 无 法 在 
系 同 源 基 因 之 间 进 行 检验 。 因 此 , 我 们 只 能 通过 比 
较 群 体 中 多 态 性 位 点 来 判断 这 些 嵌 合 基因 是 和 否 受 
到 选择 。 我 们 用 DnaSP 软件 包 (Rozas et al, 2003) 分 
析 这 些 众 合 基 因 的 多 态 性 ， 并 计算 Tajima’s D 
(Tajima，1989) 和 Fu-Li’s D*/F* (Fu & Li, 1993; Fu, 
1997)。 我 们 还 使 用 MEGA 4.0 (Tamura et al, 2007) 
估算 了 这 些 舰 合 基因 在 群体 中 平均 每 个 同 义 / 错 义 
核 背 酸 位 点 上 的 替换 数目 (ds 和 dm 以 及 dvds。 此 
外 ,对 于 其 他 物种 有 直系 同 源 基 因 的 奏 合 基因 , 我 
们 还 使 用 MEGA 4.0 (Tamura et al, 2007) 估 算 了 这 些 
谍 合 基因 与 其 直系 同 源 基因 之 间 同 义 / 错 义 替 换 率 
以 及 其 比值 (Ka/Ks)。 

此 外 ,针对 假 基因 CR78277， 我 们 还 进一步 调 
#2 J D. melanogaster 在 全 世界 其 他 地 区 的 不 同 品 系 
中 的 多 态 性 情况 。 调 查 的 品系 包括 : CS. HG. OR, 
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EC154、EC157、EC167、EC174、301A、303A、 
313A、315A、335A、350A、375A、732A、736A、 
740A、787A、799A 等 。 我 们 设计 了 两 对 PCR 反应 
引物 ， 以 便 扩 增 基因 全 长 ,引物 序列 分 别 为 : (1) 上 
WF 5|W) F1:5'-CGTTCGCACTGCAAACTGTAACT -'3, 
下 游 引物 R1: 5'-TCACGTTACTTTCTGATTCG 
GGC-'3; (2) 上 游 引 物 F2: 5'-GTTCGGAAAATATAT 
GCCG44C477TGC-3， 下 游 引物 R2: 5'-ACCATTAGGC 
4G77G47C7744C7TC-3。 测 序 引 物 为 以 上 PCR 引 
物 加 上 5'-GTAACAGACGACACCAT CGATC-'3 (上 
iif), 5'-GACCGCTGTATGGCAACCATC-'3( F iif) © 
PCR 反应 条 件 为 :94 °C 3 min, 95 °C 30s, 56 C 30s, 
72 °C 1 min 30 s, 35 次 循环 , 72 °C 10 min, 4 C 保 
存 。 PCR 产物 在 1.2% 琼 脂 糖 凝 胶 电 泳 下 观察 ， 并 
使 用 天 根 生 化 科技 有 限 公 司 (TIANGEN) 的 琼脂 糖 
凝 胶 回 收 试剂 盒 回 收 PCR 产物 ， 并 用 BigDye 试剂 
盒 进行 测序 ,测序 反应 总 体积 5 uL, 包括 0.5 uL 
BigDye、0.5 pL 引物 稀释 液 、1 uL 测序 缓冲 液 、3 pL 
DNA 溶液 和 蒸馏 水 。 测 序 反 应 条 件 为 96'C Imin, 95 
10s, 50 C 5s, 60°C 4 min, 25 次 循环 ,4 C 保 
fF. G50 柱 纯化 测序 反应 产物 ， 后 甲 酰 胺 溶解 后 置 
3700 测序 仪 进行 测序 。 产 生 的 序列 用 Lasergene 软 
件 中 的 SeqMan.exe 程序 进行 组 装 和 分 析 。 

13 ”基因 表达 分 析 
1.3.1 EST 分 析 我 们 将 从 NCBI 上 下 载 的 D. 
melanogaster ESTs 序列 (http://www.ncbinlm.nih. 
gov/nucest) 用 BLAST 软件 (Altschul et al, 1997) 中 的 
Blastn 比 对 到 这 些 嵌 合 基因 以 及 其 祖先 基因 的 序列 
上 。 由 于 这 些 新 产生 的 肉 合 基因 与 其 祖先 基因 在 核 
昔 酸 序列 上 的 同 源 性 太 高 , 我们 采取 了 较为 严格 的 
标准 ， 即 选取 那些 相似 度 在 95% 以 上 ， 比 对 长 度 占 
EST 长 度 的 90% 以 上 的 序列 , 进一步 去 除 那 些 同时 
比 对 到 基因 组 上 多 个 基因 的 ESTs, (OR Pa EEE 
性 的 匹配 到 肉 合 基因 或 者 其 祖先 基因 上 的 ESTs. MA 
NCBI 上 下 载 这 些 特异 性 的 ESTs 的 组 织 或 者 发 育 时 
期 的 信息 。 由 此 ， 我 们 初步 判断 这 些 舱 合 基因 以 及 
其 祖先 基因 的 表达 组 织 。 

1.3.2 ”高 通 量 表达 模式 数据 分 析 从 FlyBase Fak 
由 转录 组 测序 产生 的 D. melanogaster 高 通 量 表达 模 
式 数 Hi (ftp://flybase.org/flybase/associated files/ 
Gelbart.2010.10.13.tar.gz)。 我 们 从 中 抽 提 出 这 14 个 
抠 合 基因 以 及 其 祖先 基因 表达 的 数据 。 这 些 表达 数 
据 分 别 来 源 于 30 APARRA: Mia 00 一 02 
























































































































































































































































































































































































































































Š 








4 





6 期 占 祖 兵 等 ， 黑 腹 果 蝇 中 嵌 合 新 基因 的 进化 命运 和 表达 模式 589 


h, 02~04h, 04~06 h、06 一 08 h、08 一 10 h、10 一 
12h, 12~14h, 14~16h, 16~18h, 18~20h, 
20~22 h, 22~24 h; 幼虫 LI、L2、L3 各 12h, 
L3 膨胀 期 (puffstage) 1 一 2 h、L3 膨胀 期 3 一 6h、L3 
膨胀 期 7 一 9 h; 白色 预 晴 (white prepupae) 前 期 、 白 
色 预 肾 12 h、 白 色 预 晴 24h， 晴 2d、3d、4d; 成 
虫 雄性 1d、5 d、30 d， 成 虫 肉 性 1d. 5d, 30d. 
我 们 将 这 些 发 育 时 期 分 为 5 Pt, BRAS SS 
成 虫 雄性 和 雌性 。 根 据 FlyBase 提供 的 标准 ,表达 
量 高 低 分 为 9 SAI, 即 不 表达 (0)、 极 度 低 表 达 
(1 一 10)、 表 达 量 很 低 (11 一 100)、 低 表达 (101~400)、 

等 表达 (401 一 1400)、 中 等 高 度 表 达 (1 401 一 4 
000)、 高 表达 (4 0O1~1 万) 表达 量 很 高 (1.0001 万 一 
10 万 、 极度 高 表达 (10.0001 万 一 2 00 万 )。 


2 结 R 


2.1 衬 合 新 基因 的 中 性 检验 以 及 群体 遗传 学 分 析 

本 文 所 研究 的 14 个 组 合 新 基因 来 源 于 Rogers 
et al (2009) 的 报道 ( 表 D)。 这 些 舱 合 新 基因 中 有 6 个 
(CG31904. CG31687、 CG17196、 CG11961. CG3978 
和 CCG06844) 存 在 多 种 选择 性 剪 切 形式 ， 其 中 2 个 
(CG31904 和 CG37687) 是 新 近 起 源 的 ， 而 另外 4 个 
则 属于 起 源 较 早 的 嵌 合 基因 ; 28 个 祖先 基因 中 有 8 
个 存在 多 种 选择 性 剪 切 形式 。 对 于 那些 新 近 起 源 的 
年 轻 的 基因 ， 由 于 起 源 年 代 很 近 , 在 短期 内 单个 品 
系 无 法 积累 很 多 突变 , 根据 仅 有 的 基因 组 参考 序列 ， 
我 们 无 法 判断 其 与 祖先 基因 之 间 的 分 歧 以 及 其 是 
否 有 功能 而 受到 自然 选择 。 因此 , 我 们 利用 14 NY 
基因 以 及 其 祖先 基因 的 在 果 晶 50 个 不 同 的 品系 或 
者 个 体 的 全 部 多 态 性 数据 ,提取 出 位 于 这 些 嵌 合 基 
因 和 其 祖先 基因 中 的 蛋白 质 编 码 区 域 
(protein-coding regions) 的 核 昔 酸 替换 数目 以 及 类 
型 。 结 果 显 示 , 14 REENA 8 个 (57.1%) 在 有 
些 个 体 中 积累 了 提前 终止 子 突变 ( 表 2)。 没 有 积累 提 
前 终止 子 突变 的 6 个 基因 中 有 4 个 是 DD. melanogaster 
特有 的 , 即 CG32318, CG31864, CG12592 和 CG31687。 

进一步 比较 这 6 个 没有 积累 提前 终止 子 突变 的 
奶 合 基因 在 群体 中 的 错 义 与 同 义 替 换 率 以 及 比值 ， 
Z 检验 结果 显示 只 有 相对 较 古 老 的 两 个 能 合 基因 ， 
BY CG30457 MI CG17196, 受到 负 选 择 (4Wds< 1, P< 
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显著 (dw4ds=0.507, P=0.08065). Tajima's D 和 Fu-Li's 
D*/F* 检 验 显示 ，CG32318、CG12592 和 CG31687 
可 能 受到 显著 的 自然 选择 ( 表 3)。 其 中 , CG12592 和 
CG31687 的 dwds<l H. Tajima's D<0，Fu-Lis 
D#/F*<0， 表 明 它 们 受到 显著 的 负 选 择 。CG32378 
的 dy/ds>1, H. Tajima's D<0, Fu-Lis D*/F*<0, 表明 
该 基因 可 能 在 群体 内 正在 受到 正 选 择 作用 。 因 此 ， 
群体 遗传 学 分 析 显 示 , 在 14 个 嵌 合 基因 中 有 6 个 
(42.9%) 不 仅 编 码 框 在 群体 中 完整 而 且 不 同 程度 受 
到 负 或 正 选择 ， 可 能 有 功能 。 其 余 的 8 个 基因 在 群 
体 中 积累 了 提前 终止 子 突 变 。 因 此 ， 它 们 可 能 是 假 
基因 或 者 是 非 蛋 白 编码 的 RNA 基因 。 

2.2 RAMBANRADM 

2.2.1 基于 EST 数据 的 表达 分 析 ”我 们 使 用 EST 
数据 来 调查 这 些 嵌 合 新 基因 在 哪些 组 织 中 表达 。 由 
于 这 些 拣 合 基因 起 源 年 代 较 近 , 因 此 可 能 有 部 分 
EST 能 同时 比 对 到 两 个 或 者 两 个 以 上 的 同 源 基因 
中 。 为 准确 区 分 新 基因 与 其 祖先 基因 的 表达 , 我 们 
仅 分 析 了 那些 能 比 对 到 唯一 的 基因 上 的 ESTs, 并 
以 此 分 析 嵌 合 基 因 与 其 祖先 基因 之 间 的 表达 组 织 。 
如 表 4 所 示 , 14 ARE EARE 7 个 没有 基因 特异 
性 的 EST 数据 ,另外 7 个 在 头 、 胚 胎 、 精 策 、 幼 虫 
- 晴 等 组 织 或 者 时 期 表达 。 其 中 有 5 个 基因 在 胚胎 时 
其 有 表达 ,2 个 基因 在 头 部 表达 , 仅 有 一 个 基因 
(CG31684) 在 成 虫 精 集中 表达 , 但 由 于 EST 数据 有 
限 ， 无 法 确认 是 否 是 精 梨 特异 性 表达 。 假 基因 
CR18217 ZEMIN HA, 其它 7 个 积累 了 提前 终 
止 子 突变 的 嵌 合 基因 (可 能 正在 假 基 因 化) 中 有 3 个 
没有 基因 特异 性 的 EST 数据 , 3 个 在 胚胎 时 期 表达 ， 























































































































































































































































































































































































































1 个 在 头 部 表达 。28 个 祖先 基因 中 有 21 个 有 EST 
数据 , 它们 在 多 种 组 织 中 表达 , 其 中 6 个 在 精 梨 中 
































表达 。 我 们 特别 注意 到 可 能 发 生 假 基因 化 的 基因 也 
表现 出 多 样 化 的 表达 。EST 数据 显示 ，CG37904 在 
头 部 表达 , CG31864 在 成 虫 精 梨 中 表达 , CR78277、 
CG6653 和 CG3978 在 胚胎 时 期 表达 。 尽 管 能 特异 
PELE BIKA SEALY EST 数据 有 限 ， 只 有 7 个 基因 
有 基因 特异 性 的 EST 数据 , (AIAG A EIA HY FE FF 
不 像 逆转 座 新 基因 一 样 局 限于 精 集 特异 性 表达 ， 而 
有 具有 更 为 多 样 化 的 表达 模式 。 

2.2.2 ”基于 高 通 量 表达 模式 数据 的 表达 分 析 为 






































































































































0.05)( 表 3)。 其 余 4 个 Z 检验 没有 检测 到 选择 信号 
的 D. melanogaster 7 IW iik 4 3k Al (CG32318, 
CG31864, CG12592 和 CG31687)#, CG31687 接近 















































BE — A ap AT A E R aE BA AY Be A BK DA HEM ET HE 
在 哪些 发 育 时 期 执行 功能 , Belair FER ASE 
因 在 果 晶 生命 周期 中 的 30 个 时 期 的 表达 情况 。 在 
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R2 RABASPASBAE Drosophila melanogaster 群体 中 的 同 义 、 错 义 替 换 和 提前 终止 子 的 分 布 
Tab.2 Distribution of synonymous, non-synonymous substitutions and premature stop codons of chimeric 

genes and their parental genes in Drosophila melanogaster populations 
基因 名 称 (Gene ID)" 单 碱 基 替 换 (SNS)? 
CG ID FBgn ID FBtr ID Ss NSS STOP 

新 基因 FBtr0079501 29 45 1 

New gene CO FBgng260473 FBtr0079502 29 45 1 

FBtr0079503 49 33 0 

祖先 基因 A FBtr0079504 49 33 0 

Parental gene A | 人 FBtr0079505 49 33 0 

FBtr0114496 49 33 0 

祖先 基因 B CG7216 FBgn0014454 FBtr0079500 20 25 2 
Parental gene B 

新 基因 CG18853 FBgn0042173 FBtr0089426 2 9 1 
PARTEIE y FBtr0088841 7 11 0 
祖先 基因 A CG12822} FBgn0033229 pO 7 ii K 
a FBtr0088838 19 30 0 
祖先 基因 B CG11205} FBgn0003082 OR ig 50 6 

新 基因 CG32318 FBgn0052318 FBtr0072732 5 8 0 
祖先 基因 A CG9191 FBgn0004378 FBtr0072733 60 54 2 
祖先 基因 B CG9187+ FBgn0035194 FBtr0072731 15 8 0 

新 基因 CG31864 FBgn0051864 FBtr0080288 1 1 0 
祖先 基因 A CG12264 FBgn0032393 FBtr0080290 15 25 1 
eae FBtr0080286 8 15 0 
祖先 基因 B CG5202+ FBgn0032391 EBUOLO0EDE à : A 

新 基因 CG12592 FBgn0037811 FBtr0082233 8 17 0 
祖先 基因 A CG18545+ FBgn0037812 FBtr0082234 2 7 0 
See FBtr0082231 26 56 4 
祖先 基因 B CG12819 FBgn0037810 0 as žo i 

FBtr0081361 18 38 0 

WT es [A 

新 基 CG31687 FBgn0051687 P0303 724 入 0 
祖先 基因 A CG2508 FBgn0032863 FBtr0081362 24 18 1 
ee FBtr0273378 13 12 1 
祖先 基因 B CG31688 FBgn0051688 pee Eee js ne j 

新 基因 CR18217* FBgn0036646 FBtr0301925 NE NE NE 
祖先 基因 A CG17286 FBgn0027500 FBtr0075363 20 49 1 
祖先 基因 B CG4098+ FBgn0036648 FBtr0075361 0 12 0 

新 基因 CG31668 FBgn0051668 FBtr0113412 34 42 4 
祖先 基因 A CG33124+ FBgn0053124 FBtr0300181 54 62 0 
祖先 基因 B CG8451 FBgn0031998 FBtr0079637 33 16 1 

新 基因 CG6653 FBgn0040255 FBtr0082376 19 38 1 
祖先 基因 A CG31002+ FBgn0051002 FBtr0085813 17 30 0 
祖先 基因 B CG17200 FBgn0040253 FBtr0082377 16 31 2 

新 基因 CG30457+ FBgn0050457 FBtr0086998 20 19 0 
祖先 基因 A CG10953 FBgn0034204 FBtr0086997 22 13 1 
祖先 基因 B CG13705 FBgn0035582 FBtr0073352 30 47 1 

FBtr0084922 19 6 0 

WT es [A] 

新 基 CG17196% FBgn0039368 FBO3021 入 P 6 
祖先 基因 A CG17197 FBgn0039367 FBtr0290204 19 29 1 
祖先 基因 B CG17195+ FBgn0039369 FBtr0084921 12 10 0 

FBtr0086519 95 23 2 

Wr aK IA 

新 基 CG11961 FBgn0034436 0 Ge oe 2 
祖先 基因 A CG9416+ FBgn0034438 FBtr0086555 86 19 0 
祖先 基因 B CG30049 FBgn0050049 FBtr0087906 55 56 2 

ee FBtr0083220 40 48 1 

新 基因 CG3978 FBgn0003117 e003 je a i 
S Me FBtr0081808 20 48 2 

日 先 基 医 CG9656 FBgn0001138 B03 00 ah 的 
祖先 基因 B CG10278 FBgn0038391 FBtr0083218 44 72 2 

meer FBtr0084639 42 10 1 

新 基因 CG6844 FBgn0000039 Ep jb ‘a i 
祖先 基因 A CG5610 FBgn0000036 FBtr0084619 44 35 1 
AH A EEE FBtr0073299 45 12 0 
祖先 基因 B CG11348 FBgn0000038 E0073300 i f i 

?基因 名 称 ; CG ID 和 FBgn ID 分 别 是 一 个 基因 的 两 种 不 同名 称 ，FBtr ID 是 指 一 个 基因 的 转录 本 名 称 。" 单 碱 基 蔡 换 :， SS 指 编码 区 内 核 苷 酸 同 义 替换 
数目 ， NSS 指 非 同 义 替换 ( 错 义 蔡 换 ) 数 目 ，STOP 指 核 昔 酸 替换 产生 提前 终止 子 数 目 ，“CR18217: CR18217 被 注释 成 假 基 因 (NE 指 不 存在 ); + 指 群体 
中 没有 提前 终止 子 突变 的 祖先 基因 (11/28);” 指 群体 中 没有 提前 终止 子 突变 的 新 基因 (6/14)。 


* Gene ID: CG ID and FBgn ID denote two names of each new gene or parental gene; "SNS: SNP denotes single nucleotide substitution in protein-coding 
regions. SS denotes the number of synonymous substitutions, NSS denotes the number of non-synonymous substitutions, and STOP denotes the number of 


pre-mature stop codons; “CR18217: CR18217 was annotated as a pseudogene (NE: not existed); + The parental genes which do not have pre-mature stop codons 


in population (11/28); + The new genes which do not have pre-mature stop codons in population (6/14). 
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表 3 ， 岩 合 新 基因 的 中 性 检验 结果 
Tab.3 Results of neutral tests on chimeric genes 

CG EK è FBgn 49K * FBtr 名称” 序列 数 ” 位 点 数 > iA o M Fu-Li's 
CGID? FBgnID’ FBtrID* SeqN Sites 2 ds ands, Pvalle, Tajima D De k 
CG32318 FBgn0052318 FBtr0072732 21 2025 0.00554 0.00371 1.493 0.27388 -2.33784**  -3.39120** -3.60866** 
CG31864 FBgn0051864 FBtr0080288 5 372 0.00369 0.00730 0.505 0.23832 -0.75199 -0.41017 —0.48709 
CG12592 FBgn0037811 FBtr0082233 18 495 0.00113 0.00208 0.543 0.10899 -2.42979*** —3.51295**  —3.68453** 
CG31687 FBgn0051687 FBtr0302224 15 1056 0.00248 0.00489 0.507 0.08065 -2.35146*** -3.22751**  —3.43465** 
CG30457 FBgn0050457 FBtr0086998 31 570 0.00380 0.03389 0.112 0.00211** -1.45689 ~2.22966* ~2.33216* 
CG17196 FBgn0039368 FBtr0084922 29 831 0.00337 0.01432 0.235 0,00322** -1.92071* -1.55541 -1.97526 

?基因 名 称 : CG ID 和 FBgn ID 分 别 是 一 个 基因 的 两 种 不 同名 称 ，FBtr ID 是 指 一 个 基因 的 转录 本 名 称 。 "dv 指 每 个 错 义 替 换 位 点 上 错 义 替 换 的 平均 

















数目 ; 必 指 每 个 同 义 替换 位 点 上 同 义 替 换 的 平均 数目 。" 乙 检验 的 尸 值 。 


*Gene ID: CG ID and FBgn ID denote two names of each new gene or parental gene; ” dy: Mean number of nucleotide su 




















Mean number of nucleotide substitution per synonymous site. ° P value for Z test. 
*; P<0.05, **: P<0.01; ***: P<0.001 (Z test and Tajima’s D Test). 
*; 0.10>P > 0.05, **: P<0.02; ***: P<(Fu and Li’s D*/F* Test). 
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bstitution per non-synonymous site, ds: 


Tab.4 Expressed tissues of chimeric new genes and their parental genes 








新 基因 表达 组 织 祖先 基因 A 表达 组 织 祖先 基因 B 表达 组 织 

New gene Exp tiss ° Par gene A ” Exp tiss ° Par gene B? Exp tiss ° 
CG31904 H CG13796 E CG7216 H 
CG18853 UN CG12822 UN CG11205 AT,E 
CG32318 UN CG9191 AT,E,O,SL CG9187 EG 
CG31864 AT CG12264 AT,E,H,LP,O,SL CG5202 SL 
CG12592 UN CG18545 UN CG12819 AT,E,LP,O,SL 
CG31687 UN CG2508 AT,E CG31688 E,SL 
CR18217 E CG17286 AT,E,LP,O,SL CG4098 E,SL 
CG31668 UN CG33124 L CG8451 AT,E,H,LP,O 
CG6653 E CG31002 E CG17200 UN 
CG17196 UN CG17197 UN CG17195 UN 
CG30457 E CG10953 E CG13705 E,H 
CG11961 E,EG,H,LP CG9416 E,O CG30049 UN 
CG3978 E CG9656 E CG10278 E,LP 
CG6844 UN CG5610 UN CG11348 B,E,H 

“Exp tiss 表示 新 基因 或 者 祖先 基因 表达 的 组 织 。 "Par gene A 表示 祖先 基因 A; Par gene B 表示 祖先 基因 B; 名 称 简写 一 一 E; 胚胎 ; 

EG: 胚胎 生殖 腺 ， L: 幼虫 LP: 幼虫 -早期 ， AT: RRR: H: Sk; SL: Schneider L2 细胞 ，O: 9N; B: 脑 UN: 未 知 。 











“Exp tiss denotes the tissues in which new genes or parental genes are expressed; "Par gene A denotes parental gene A, while Par gene B 


denotes parental gene B; The abbreviation of the tissues, organs or cell lines (E: embryo; EG: embryonic gonads; L: larvae; LP: L-early 


pupae; AT: adult testes; H: head; SL: Schneider L2 cell line; O: ovary; B: brain; UN: unknown). 


































































































































































































































































































上 胚胎、 幼虫 、 晴 、 雄 性 成 虫 与 雌性 成 虫 种 虫 态 中 ， CG11961 在 除 胚胎 00~02 h 以 外 的 时 期 中 都 维持 
14 MKAZEA HA 11 个 (78.6%) 在 3 种 及 以 上 的 时 ”中 等 以 上 的 表达 水 平 , 提示 它 可 能 是 在 合子 形成 后 
期 呈现 中 等 及 以 上 的 表达 (图 2),， 这 提示 大 部 分 炭 KEWER. E 14 个 髓 合 基 因 中 有 6 个 (42.9%) 在 
合 基 因 在 多 种 组 织 中 表达 并 可 能 执行 相关 的 功能 。 胚胎 00-02 h 内 呈现 中 等 以 上 的 表达 水 平 , 这 提示 
可 能 发 生 假 基因 化 的 基因 也 表现 出 多 样 化 的 表达 。 它们 有 可 能 是 母 源 性 的 表达 。 在 这 6 个 基因 中 
可 能 发 生 假 基因 化 的 8 个 基因 中 有 6 个 在 3 种 及 以 CG12592 在 胚胎 发 育 的 24 h 内 只 在 00 一 02 h 内 呈 
上 的 时 期 呈现 中 等 及 以 上 的 表达 。 其 中 , CG18853 ” 现 中 等 以 上 的 表达 水 平 ( 图 2), 这 提示 它 可 能 是 个 
在 所 有 的 30 个 时 期 中 都 维持 中 等 以 上 的 表达 水 平 。 ，” 母 源 效应 基因 。 
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CG31668 
CR18217 
广 D.melanogaster CG31687 
CG12592 
D.sechellia CG31864 
| CG32318 
D.simulans CG18853 
CG31904 
D.yakuba CG17196 
CG665 
D.erecta 
D.ananassae 630457 A 
D.pseudoobscura CoO 
CG3978 
Noexpression(0-0) 
Extremelylowexpression(1-10) Coes 
| Verylowexpression(1 1-100) 
Lowexpression(101-400) 
Moderateexpression(401-1400) 
Moderatelyhighexpression(1 401-4000) 
Highexpression(4001-10000) 
Veryhighexpression(10001-1 00000) 
属国 Extremelyhighexpression(100001-2000000) 
图 2 ”所 合 基因 的 表达 模式 








Fig.2 Expression patterns of young chimeric genes 











Drosophila melanogaster \ 
从 左 但 
16h, 16~18 h, 18~20 h, 20~22h, 22~24h, 4H 
prepupae)fisHJ. 12h, 24h, 12d, 3d, 4d, RH 
肾 、 成 虫 雄性 和 成 
1400)、 中 等 高 度 表 达 (1401 一 4000)、 高 表达 (4001 一 1 万 )、 表 达 量 很 高 (1.0 
The phylogenetic tree of Drosophila melanogaster subgroup was shown on the 











R LI, L2, L3 12h, L3 

















shown on the right. 


群 物种 的 系统 发 育 树 如 左 ， 对 应 的 嵌 合 基因 以 及 民 
FE 右 ,这些 表 达 数 据 分 别 来 源 于 30 个 不 同 的 发 育 时 期 , 即 胚胎 00 一 02 


雄性 1 d、5 d、30 d、 成 虫 肉 性 
E 肉 性 。 表 达 量 高 低 分 为 9 个 级 别 , 即 不 表达 (0)、 极 度 低 表 达 (1 一 -10)、 表 达 量 很 低 (11 一 100)、 低 表达 (101 一 400)、 上 








表达 模式 如 右 。 

h, 02~04h, 04~06h, 06~08h, 08~10h, 10~12h, 12~14h, 14~ 
WKHA(puffstage) 1 一 2、L3 膨胀 期 3 一 6、L3 膨胀 期 7 一 9、 白 色 预 师 (white 
E 1 d、5 d、30 d。 我 们 将 这 些 发 育 时 期 分 为 5 种 ， 即 胚胎 、 幼 9 
等 表达 (401 一 
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Ky 











001 万 一 10 万 )、 极 度 高 表达 (10.0001 万 一 200 万 )。 


left, while the corresponding chimeric genes and their expression patterns were 


From left to right, these expression data were derived from 30 developmental stages, including embryo 00-02 h, 02-04 h, 04-06 h, 06-08 h, 08-10 h, 10-12 h, 


12-14 h, 14-16 h, 16-18 h, 18-20 h, 20-22 h, 22-24 h, larva L1, L2, L3 12h old, 
white prepupae 12 h, 24 h, pupae 2 d postWPP, pupae 3 d postWPP, pupae 4 


L3 puffstage 1-2 h, L3 puffstage 3-6 h, L3 puffstage 7-9 h, white prepupae new, 
d postWPP, adult male 01 d, 05 d, 30 d, adult female 01 d , 05 d, 30 d. The 


expression levels could be divided to 9 levels, including no expression (0-0), extremely low expression (1-10), very low expression (11-100), low expression 
(101-400), moderate expression (401-1400), moderately high expression (1401-4000), high expression (4001-10000), very high expression (10001-100000), 


extremely high expression (100001-2000000). 


在 成 虫 的 两 种 性 别 中 , 6 44(42.9%) ik AAE 
两 种 性 别 中 都 呈现 中 等 以 上 的 表达 水 平 , 4 个 
(28.6%) 基 因 在 两 种 性 别 中 都 不 表达 或 者 表达 量 非 
常 低 , 2 个 (14.3%) 基 因 (CG32378 和 CG3171864) 仅 在 
雌性 中 呈现 中 等 以 上 的 表达 水 平 ，2 个 (14.3%) 基 因 
(CG17196 和 CG6844) 仪 在 雄性 中 呈现 中 等 以 上 的 
表达 水 平 。 其 中 CG17196 在 肉 性 以 及 胚胎 和 幼虫 早 
期 表达 量 极 低 或 者 不 表达 ,在 幼虫 晚期 和 肾 以 及 成 
EH 雄性 中 高 表达 ， 因 此 它们 可 能 跟 精 集 的 发 育 有 
关 。 此 前 的 报道 显示 ,逆转 座 形成 的 新 基因 往往 倾 
向 于 显现 雄性 专 一 性 或 者 精 梨 专 一 性 表达 模式 
(Betrin et al, 2002; Emerson et al, 2004). 我 们 的 结果 
表明 , 与 逆转 座 形成 的 新 基因 不 一 样 , DNA 水 平 外 
显 子 重 排 形 成 的 嵌 合 基因 呈现 时 空 多 样 性 的 表达 
































模式 ， 而 不 限于 精 介 或 者 雄性 专 一 性 表达 。 因 此 ， 
如 果 它 们 有 功能 ,， 则 可 能 具有 更 为 多 样 性 的 生物 学 
功能 。 


3 讨 


3.1 57.1% AY RREH A A] AE TE EM A 
非 蛋白 质 编 码 的 RNA 基因 

我 们 对 DD. melanogaster 及 其 亚 群 中 的 组 合 新 基 
因 的 研究 表明 , 14 MRA ZEAL HAA 8 个 (57.1%) 积 累 
了 提前 终止 子 突变 , 因此 它们 可 能 是 假 基因 ,也 有 
可 能 如 sphinx 一 样 变 成 了 或 者 正在 变 成 非 编 码 
RNA (non-coding RNA，ncRNA) 基 因 。 其 中 在 D. 
melanogaster 特有 的 8 个 髓 合 基 因 中 有 4 个 积累 了 
提前 终止 子 的 核 音 酸 蔡 换 ( 表 2, 3). TERME EHP 
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中 保留 下 来 的 6 个 新 基因 中 有 4 个 积累 了 提前 终止 
FRAG, KERER, PUR RA AEA AK 
多 数 会 积累 有 害 突 变 破坏 读 码 框 而 假 基 因 化 , 在 基 
因 组 上 被 保留 下 来 的 抠 合 基因 依然 会 被 假 基因 化 。 
因此 ， 能 在 基因 组 上 长 期 保留 并 执行 生物 学 功能 的 
奶 合 基因 仅 占 很 小 的 比例 。 此 前 关于 骨 合 新 基因 的 
研究 显示 , 髓 合 新 基因 在 D. melanogaster 及 其 亚 群 
中 以 每 百 万 年 11.4 个 新 基因 的 速度 产生 ， 其 中 能 在 
基因 组 上 被 保留 下 来 的 ， 仅 占 1.4% (Rogers et al, 
2009)。 虽 然 在 14 个 嵌 合 基因 中 只 有 CR78277 BOE 
释 成 假 基因 , 但 群体 遗传 学 分 析 显 示 , 57.1% 的 典 合 
基因 在 群体 中 积累 了 提前 终止 子 突变 或 者 在 在 选 
择 上 呈现 中 性 ,这 提示 大 部 分 代 合 新 基因 可 能 正在 
段 基因 化 或 者 正在 变 成 非 蛋 白质 编码 的 RNA 基因 。 
Kimura (1983) 提 出 了 一 个 经 典 的 模型 一 等 竺 

























































































































































































所 保留 (Kimura, 1983)。 按 照 这 个 模型 ， 新 基因 起 源 
后 的 早期 阶段 ， 由 于 负 选 择 放松 , 新 基因 往往 表现 
为 选择 上 的 中 性 状态 或 者 近似 中 性 状态 ， 以 更 快 地 
只 累 各 种 突变 ， 从 而 为 新 功能 的 进化 积累 序列 上 的 
材料 。 在 这 个 早期 阶段 ， 新 基因 往往 表现 为 假 基因 
的 特征 。 因 此 ,， 假 基因 化 可 能 是 新 基因 进化 出 新 功 
能 的 一 个 中 间 状 态 。 而 正在 假 基因 化 的 拒 合 基因 有 
多 少 能 进化 出 新 功能 也 有 待 进一步 分 析 。 

CR18217 曾经 被 FlyBase 网 站 (http://flybase.org/) 
注释 成 蛋白 质 编码 基因 CG18217 (基因 组 版 本 : 
Dmel r 4.3, FB2006 10), 现在 被 注释 成 假 基因 ， 且 
基因 结构 与 以 前 不 一 样 (图 3A)。 我 们 反 转 录 
PCR(RT-PCR) 与 测序 的 结果 也 支持 新 的 基因 结构 ， 
即 早期 版 本 CG78277 中 注释 的 第 3 个 内 含 子 是 转录 
的 。 此 外 , 我 们 调查 了 CR78277 在 D. melanogaster 


































































































T 

































































模型 (waiting model) 一 一 来 描述 重复 基因 (产生 新 基 
因 最 重要 的 方式 之 一 ) 如 何 获 得 新 功能 并 在 基因 组 
上 最 终 保留 下 来 。 基 因 重 复 后 ,作用 于 一 个 或 者 两 
个 拷贝 上 的 负 选 择 得 到 放松 ,因而 能 积累 中 性 突 
变 ， 甚 至 有 害 突变 ; 最 终 ， 一 个 或 者 两 个 找 贝 上 积 
累 的 部 分 突变 要 么 被 负 选 择 所 清除 ,要么 被 正 选择 






































A CG17286 


CG18217 











不 同 群体 中 的 序列 ,发现 其 以 前 注释 的 ORF 内 存 
在 3 个 移 码 突变 (frame shift mutations) (3 个 外 显 子 
上 分 别 有 1、31、4 bp 的 缺失 ), 它 的 和 蛋白 质 编码 能 

在 群体 中 并 没有 被 固定 下 来 。 因 此 ，CR18217 很 
可 能 的 确 是 假 基因 。 最 近 释 放 的 转录 组 测序 的 数 
据 也 支持 现在 的 基因 结构 ， 转 录 组 测序 产生 
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图 3 RAHA CRI8217 的 基 








= 非 翻译 区 域 或 者 假 基因 的 外 显 子 


UTRs or exons of pseduogenes 
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Sequence reads 
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因 结 构 、 多 态 性 与 选择 性 剪 切 











Fig. 3 Gene structure, polymorphsims and alternative splicing of chimeric genes CR78277 





A: CRI8217 




















结构 是 正确 的 , Drosophila melanrogaster 群 体 分 析 显 示 它 有 三 个 缺失 (deD) 多 态 性 破坏 了 此 前 注释 的 读 码 框 ， 因 而 CR78277 的 确 不 是 蛋 
存在 多 种 选择 性 剪 切 模式 ， 其 中 第 一 个 和 最 后 一 个 内 合子 都 是 选择 性 前 切 的 内 含 子 。 



































转录 组 测序 产生 的 序列 读 段 显 示 殿 











两 个 祖先 基因 CG17286 和 CG4098 通过 外 显 子 重 排 而 形成 ， 其 最 初 被 注释 成 蛋 





了 质 编码 基因 CG18217, RT-PCR 证 实现 在 注释 的 基因 
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9 质 编码 基因 。B: 











A: CR18217 arose through fusion of parts of two parental genes CG17286 and CG4098 by exon shuffling. CR78277 was initially annotated as a protein-coding 


gene. RT-PCR results showed the current gene structure is correct. Drosophila melanogaster population analysis showed that two deletion (del) polymorphisms 


disrupted its initially annotated ORF (open reading frame), thus CR/8217 is indeed not a protein-coding gene. B: the sequence reads generated in transcriptome 


sequencing showed that CR/82/7 has multiple alternatively spliced isoforms. 
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的 序列 读 段 能 比 对 到 CR78277 上 ， 且 所 有 读 段 都 显 
示 第 二 个 内 含 子 被 剪 切 掉 ， 但 第 一 个 和 最 后 一 个 内 
含 子 在 不 同 的 读 段 中 被 选择 性 剪 切 或 者 保留 (图 
3B)。 因 此 ，CR78277 可 能 存在 多 种 不 同 的 选择 前 
切 模式 。 
除 此 之 外 , 在 14 个 嵌 合 基因 中 还 有 6 个 存在 多 
种 选择 性 剪 切 形 式 。 其 中 仅 有 2 个 包涵 在 新 近 起 源 
的 8 个 符合 基因 中 ,这 说 明 新 近 起 源 的 内 合 基因 中 
只 有 少数 (25%，2/8) 存 在 选择 性 前 切 ; 而 起 源 较 早 
的 髓 合 基 因 中 大 部 分 (66.7%, 4/6) 存 在 选择 性 剪 切 。 
因此 , 选择 性 剪 切 或 可 以 成 为 检测 符合 基因 能 和 否 在 
基因 组 上 保留 下 来 的 一 个 标志 ， 因 为 新 基因 进化 出 
选择 性 剪 切 很 可 能 是 为 了 功能 进化 的 需要 , 即 它 们 
正在 往 新 功能 进化 的 道路 上 前 进 。CG31687 受到 显 
著 的 负 选 择 ( 表 3), 很 可 能 有 功能 。 尽 管 CG371904 和 
CR18217 的 蛋白 质 编码 能 力 在 群体 中 并 未 被 固定 下 
K, 但 其 存在 多 种 选择 性 剪 切 模式 , 与 此 前 报道 的 
sphinx 相似 (Wang et al, 2002), 它们 可 能 是 有 功能 
的 非 蛋 白质 编码 RNA 基因 ; 或 者 处 于 新 基因 进化 
的 中 间 状 态 , 与 等 待 模型 一 致 ,在 未 来 它们 会 进化 
出 新 的 ORF 并 清除 有 害 突变 而 维持 新 的 蛋白 质 编 
码 能 力 和 相应 的 功能 。 在 基因 组 上 保留 了 较 长 时 间 
的 CG11961、CG3978 和 CG6844 Œ D. melanogaster 
不 同 群 体 中 也 有 提前 终止 子 突变 ,它们 与 CC37904 
和 CRI8217 一 样 也 可 能 存在 两 种 进化 命运 一 一 功 
能 的 非 蛋白 质 编码 RNA 基因 和 进化 出 新 的 蛋白 质 
编码 能 力 。 
综 上 所 述 , DNA 水 平 外 显 子 重 排 而 产生 的 符合 
基因 ,在 群体 中 容易 积累 有 害 突变 而 假 基 因 化 ， 如 
发 生 提 前 终止 子 突变 。 它 们 在 进化 中 以 一 个 非常 低 
的 比例 保留 下 来 。 尽 管 这 些 远 合 基 因 大 部 分 都 将 会 
以 假 基因 化 的 方式 退出 进化 舞台 ,但 仍 有 少数 因为 
有 具有 新 的 表达 模式 和 /或 选择 性 剪 切 模 式 。 因 此 ,， 它 
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们 可 能 如 同 sphinx (Wang et al, 2002) 一 样 ， 是 具有 
功能 的 非 蛋 白质 编码 的 RNA 基因 ; 或 者 如 等 待 模 
型 (Kimura，1983) 所 描述 的 一 样 ， 由 于 选择 放松 而 
积累 中 性 ， 甚 至 有 害 突变 。 在 未 来 的 进化 中 , 它们 
将 进化 出 新 的 开放 读 码 框 ， 并 进化 出 新 的 蛋白 质 功 
能 。 因 此 , 假 基 因 化 很 可 能 是 这 部 分 嵌 合 基因 进化 
中 的 中 间 状 态 。 
3.2 ”外 显 子 重 排 产生 的 能 合 基因 具有 更 为 多 样 化 

的 表达 

REREH H RNA 介 导 外 显 子 重 排 (逆转 座 ) 
和 DNA 水 平 的 外 显 子 重 排 两 种 机 制 而 产生 。 逆 转 
座 形成 的 新 基因 , CLR BARA, 往往 表现 为 雄 
性 特异 性 或 者 精 梨 特异 性 表达 ， 且 整体 上 倾向 于 逃 
AX REM, 这 可 能 是 为 了 逃避 雄性 减 数 分 裂 中 入 染 
色 体 失 活 (MSCI meiotic sex chromosome inactivation) 
(Kaessmann et al, 2009). 

GWG ARTE Oe EAA EC, 关于 由 两 个 或 
者 多 个 基因 通过 DNA ACP Sb so FEAF ITI BCH ik 
合 基因 的 报道 相对 较 少 ,其 系统 性 研究 也 不 多 。 我 
们 在 黑 腹 果 晶 及 其 亚 群 中 研究 了 由 两 个 基因 通过 
外 显 子 重 排 而 产生 的 嵌 合 基因 的 表达 ,发 现 这 些 撕 
合 基 因 , 包括 可 能 正在 发 生 假 基因 化 的 基因 ， 并 不 
倾向 于 在 雄性 或 者 精 巢 中 专 一 性 表达 , 而 是 在 两 种 
性 别 和 多 个 发 育 时 期 中 都 表达 ,其 表达 范围 更 为 ) 
泛 (图 2, 表 和 。 这 说 明 由 外 显 子 重 排 而 形成 的 符合 
基因 的 生物 学 功能 并 不 局 限于 雄性 或 者 精 梨 中 , 更 
可 能 具有 更 为 广泛 的 生物 学 功能 。 
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